# 导入必备的工具包
import torch
import copy

# 预定义的网络层torch.nn, 工具开发者已经帮助我们开发好的一些常用层,
import torch.nn as nn
import torch.nn.functional as F

# 数学计算工具包
import math

# torch中变量封装函数Variable.
from torch.autograd import Variable

# 模型超参数及配置项
# device: 指定模型运行设备（CPU/GPU）
# vocabulary_size: 词表总大小
# embedding_dim: 词向量嵌入维度
# d_ff: 前馈神经网络中间层维度
# dropout: dropout层丢弃概率
# max_len: 序列最大处理长度
# heads: 多头注意力机制的头数
# batch_size: 训练批次大小
device = 'cpu'
vocabulary_size = 1024
embedding_dim = 512
d_ff = 1024
dropout = 0.1
max_len = 64
heads = 8
batch_size = 2
